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ГЛИБОКА НЕЙРОННА МЕРЕЖА НА ОСНОВІ УЗАГАЛЬНЕНИХ 
НОВОНЕЧІТКИХ НЕЙРОНІВ ТА ЇЇ НАВЧАННЯ ЗА ДОПОМОГОЮ ЗВОРОТНОГО 
ПОШИРЕННЯ ПОХИБКИ 
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Анотація. У сучасних підходах до глибоких нейронних мереж виникає ряд актуальних питань, пов'язаних 
із процесом навчання та з обчислювальними затратами. У статті розглянуто архітектуру нейронної мережі, у якій 
реалізовано альтернативний підхід до базової одиниці нейронної мережі. За рахунок цього досягається 
оптимізація обчислень і з'являється новий погляд на розв'язання відомих проблем глибоких мереж - зникального 
та вибухального градієнта. 

У статті розглянуто глибоку стекову нову нечітку систему, в якій використано узагальнений ново-нечіткий 
нейрон для оптимізації процесу навчання. З теоретичного погляду такий підхід є нестандартним, тож у роботі 
наведено необхідні математичні викладки та описано всі практичні тонкощі використання цієї архітектури. 

З теоретичної сторони повністю розкрито процес навчання такої мережі. Зроблені всі необхідні викладки 
щодо використання алгоритму зворотного поширення похибки для навчання цієї мережі. 

Особливістю мережі є швидке обчислення похідної для активаційних функцій нейронів. Це досягається за 
рахунок використання нечітких (фаззі) функцій належності. В роботі показано, що похідна такої функції є 
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константою, а це є приводом для того, щоб припустити наявність приросту за швидкістю оптимізації у порівнянні 
з нейронними мережами, що використовують нейрони з більш поширеними функціями активації (Веї )), зідтоїа). 
У роботі висвітлено основні аспекти, які можна покращити у подальших теоретичних дослідженнях на цю 
тему. Загалом ці питання пов'язані з обчисленням функції активації. Запропоновані методи справляються з цим 
завданням і дозволяють проводити апроксимацію за допомогою мережі, але автори вже мають теоретичні 
обгрунтування для покращення швидкодії та апроксимаційних властивостей мережі. 
У роботі показані результати порівняння запропонованої конфігурації зі стандартними архітектурами 


нейронних мереж. 


Ключові слова: глибока стекова мережа, новий нечіткий нейрон, багатошарова нейронна мережа, Е- 


перетворення. 

Вступ 

На сьогодні глибокі нейронні мережі 
(ГНМ) широко застосовують для 
розв'язання | різноманітних завдань з 
видобування даних, включаючи 
опрацювання | зображень 1 текстів, 
прогнозування та діагностику, 


інтелектуальне керування та прийняття 
рішень тощо | 1-5, забезпечуючи при цьому 
високу якість отриманих результатів. У той 
же час слід відзначити і деяку громіздкість 
цих систем, що призводить до суттєвого 
зниження їх швидкодії та породжує низку 
обчислювальних проблем у процесі 
навчання. Основним «будівельним 
блоком» ГНМ є елементарний перцептрон 
Розенблатта з активаційними функціями 


(зазвичай типу Вер), що не 
задовольняють вимоги основних 
апроксимаційних теорем, які лежать в 
основі | традиційної теорії | штучних 
нейронних мереж (ШНМ) - у сучасній 
термінології | мілких (англ. | 5Ппайом/) 
нейронних мереж (МНМ). У зв'язку із цим, 
у  |6)| було запропоновано замість 


перцептронів Розенблатта використовувати 
ново-нечіткі нейрони (ННН) |7-91, що є за 
своєю шгуттю шдосить простими  ново- 
нечіткими системами типу Такагі-Сугено- 
Канга нульового порядку, тобто мають 
універсальні апроксимаційні властивості. 
Запропонована | глибока | ново-нечітка 
нейронна мережа забезпечила високу якість 
опрацювання інформації, не страждаючи в 
процесі навчання від проблем 
«зникального» або «вибухального» 
градієнта. До недоліків цієї системи слід 
віднести істотне збільшення кількості 
функцій належності, що використовуються 
у онових нечітких нейронах замість 
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традиційних | функцій з активації | у 
перцептроні Розенблатта. 

Цю проблему можна подолати, 
скориставшись ідеєю стекових нейронних 
мереж |2, 10, 11), де шари утворюються не 
окремими нейронами, а нейро-мережевими 
блоками (СНН). Як такі блоки-стеки, 
доцільно використати так звані узагальнені 
нові нечіткі нейрони (УННН) |12|, що 
відрізняються наявністю декількох виходів 
замість одного у звичайного ННН. На 
основі УННН у (13, 14| було запропоновано 
двошарові гібридні системи 
обчислювального інтелекту, а в (15, 16) - 
глибокі мережі. Останні вже довели свою 
ефективність, проте зростання кількості 
входів у кожному наступному  стеку- 
каскаді з робить ці системи занадто 
громіздкими. У зв'язку із цим, видається 
доцільним розглянути глибоку нейронну 
мережу з прямою передачею інформації 
(Теедїогу ага агспігестиге) із системами типу 
узагальнених нових нечітких нейронів і 
чисельно стійкий алгоритм її навчання на 
основі зворотного поширення похибки. 


1. Архітектура глибокої нейронної 
мережі на основі узагальнених 
нових нечітких нейронів 


На рис. | наведено архітектуру 
(Геедїогуагі 0 агсріїесіиге) багатошарової 
стекової нової нечіткої нейронної мережі 
(БСНННМ), що містить 5 шарів-стеків. На 
вхід мережі (нульовий шар) надходить 
вхідний вектор образів х(К) 
(за (Ю, хо (Ю, ХО) є В" (тутК-1,2,..., 
М - номер спостереження у навчальній 
вибірці або індекс поточного дискретного 
часу), а на виході мережі (вихідного 5-го 
шару) формується вихідний векторний 
сигнал. 
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а його виходом - векторний сигнал. 
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є К"» 
Далі для зручності 


перетворень будемо 
використовувати позначення 


математичних 
також 


хід «ою 


ха() з оїЙЮ |-ь 
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Х(Ю в осї(Ю 


іо Од ОР ОО 


та 


70) в ої з 
(об, о, м о ЮУТп я по, 
теп... 


Таким чином, БСНННМ реалізує 
нелінійне | відображення | ЕВ" з В" , 
параметри якого відновлюються в процесі 
навчання нейронної мережі. 


ою 


Рис 1. Архітектура багатошарової стекової нової нечіткої нейронної мережі 


2.Кволюційний узагальнений 

новий нечіткий нейрон як стек-шар 

глибокої нейронної мережі 

На рис. 2 наведено схему 
узагальненого нового нечіткого нейрона 
УННН ?, який утворює р-й шар (включаючи 
перший прихований р-/ і вихідний шари 
різ) глибокої нейронної мережі. Кожен 
такий нейрон містить їП,-1 паралельних 
Гр 
їр- 
має один вхід 1, на відміну від традиційних 
нелінійних синапсів |7-9|, пр виходів. 


нелінійних синапсів БНС ;, Кожен з яких 


Кожен багатовимірний нелінійний синапс 


містить п функцій належності ці? (0271) 


Пр-1 У ір-л1 
( Ге1,2,..,п ) 1 трП налаштованих 
синапсів синаптичних ваг ум?! , які 


ірїр-1 
уточнюються в процесі навчання. Таким 


чином, кожен шар містить йт,-1 функцій 
належності та пр ППр-1 СИНаптиЧчНИиХ ваг. 

Нелінійне відображення, що 
реалізується УННН,? визначається типом 
функцій належності, що використовуються 
у конкретній мережі, та може бути 
записано у вигляді 


ою 
ТПр-1 В 

рі РіО (рот 

- У Умій, м (сЧд),міь 
ір-171 І-1 

сеЇ1,2, Пр 


Відзначимо також, що для вихідного 
шару мережі, вираз (1) може бути 
записаний у формі 
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у (0 є ою 


п 
Із 151 Їз-11 
ХУ май (об, (Ю), 


Як функції належності, У 
найпростішому випадку можуть 
використані трикутні конструкції. 


о б) 


якшо в, Пе Ге Ірі Ї, 


1-1,Їр-1 "Сір- 1 


І Ра Грі Грі 
,якщо 0; а ря ач саду М 


0, інакше, 


ср о оїро1Ї рі 


Ір-л1і 
1ір- 1 


їр-1тах? 


їр-атіп! "Піір-1 


що задовольняють 
розбиття Руспіні: 


умови одиничного 


Гр) Гр- Гр-11у - ро З Гр) Грі 
Роз їр-1 у но Осі ПЕ 1 якшо є Їс с- 1їр- 1" Сір- 1 


Ірі Ір Ір-11 - р рі рі 
Шір- 0 ( фра 7 т ЗАЛИ (ор ) - 1,якшо 0;,, Є Ге С ір-л 


де бо -1,2,..,п- 


центри відповідних функцій належності, 


оЇр- 1) оЇїр- 1) 
ран 1тіп" бі 1тах 
мінімальне та максимальне значення 


вхідного сигналу ір-1-го багатовимірного 


нелінійного синапсу БН С! стеку УННН?. 


Таким чином, якщо центри 
Р Де Гр| касі 
активаційних функцій Щі от 
рівномірно розподілені | на інтервалі 
-1 -1 М РУ 
гі? 1, Гре-1і Ї відстань між двома 
їр-1тіп" Їр-1тах 
сусідніми центами визначається 
величиною 
оЇр- 1) оЇр- 1 
ЛІРІ- Фір- 1тах | ір-1тіп 
по1 


У зоре задачах, проте, вихідні 


сигнали о тю можуть виходити за 


означений Зерна і в цьому випадку 


Ї; 
Ї, 
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Гр! 


конкретний БНС; може просто не 
їр-а1 

реагувати з на г подане на | ЙОГО Вхід 

збудження. Подолати це ускладнення 


можна, скориставшись ідеєю еволюційного 
нового нечіткого нейрона |19|, який у 
нашому випадку набуває досить простої 
форми. 


Отже, нехай на вхід БНС!? |надійшло 


1 , ЯКе 
їр-1тах 


Грі 
їр аа 
значення сигналу р М "«Ю»о р 
виходить понад ній інтервал. У цьому 
ния - 4 РІ Гр-1) 
дку функція належності Шіуча ЦК Оір- 


доповнюється справа компонентою 


Гр-аЇк Гр-1) 
рі?! ( м) б в і, ю 
Пір- ір- р-а1Їж р 
р-1 р-1 р (кю пай 
для 
Гр-1) Ір |  - 
збо. б і" 
Гр- 1 
ір-1тах о 1 ЧО 3. 


Крім того, формується нова функція 
належності 


ої (юу-с 


Гр! Гр-115 || Фір-і б 1 
з Зоб 
для 

Ір-11 Гр |  - .Гр-1і Гр-лЇж 
їр-1 Є Піір-1 сені МО (ЮЇ. 


У протилежному випадку, коли на 


вхід надходить значення парк (кю) « 
Ір-11 : Грі ( АТ 
ір-1тіп і: функція Мінея а 


доповнюється зліва компонентою 


оЇїр-1 Гр-1) 
Грі (о (к)-0ї а 
ЛЬ 


Гр-113 Фір- 1х ір-1 
ір-1 / 70 ор 


оЇїр-1 
1їр- 11 шо "ою" 
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Ір- 11 оЇр-1 
орі є Гор" чо с гр 117 ій іт Т 


Також формується нова функція 
належності з центром 
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нелінійний | синапс БНО, набуває 
здатності | опрацьовувати | сигнали в 
діапазоні 
ор а ор «є ої 38, 
їр-13 їр-1 їр-1 


Якщо ж у процесі навчання заоч 
Зв "(ю 
виходить із цього діапазону, процедура 


еволюції системи функцій належності може 
аналогічним чином бути продовжена. 


ситуація, коли вхідний сигнал ої 


3.Навчання глибокої нейронної 
мережі на основі узагальнених 
нових нечітких нейронів 


БСНННМ 
на | основі | зворотного 
поширення похибки їі є за суттю 
градієнтною | процедурою мінімізації 
прийнятого критерію навчання, за який 
найзручніше прийняти квадратичну 


функцію. 


Процес 
реалізується 


навчання 


т 


вдо у "ОРЕУМОЇ 


ізні /з1 


2) 


де 


г: ЮЕ а з у - 

5- 15) 15-11 я 
раретьм 1 ЛИ Ні 1 (об- (0) ш 
уаакдее 
Учні ле 1 т. МИТА (ої. щі 1 "(ю), у (Ю 
у; (Ю) - 
зовнішній навчальний сигнал. 


Вводячи до розгляду 
навчальних сигналів 


вектор 
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у(Ю з 
(ул (Ю, у» (Ю, «Ух (Ю, « Ут(К))" є 
(ул (К), ... у Ук, (К), м Уп (Ю), 
(пп, Х 1)  - о вектор | функцій 


належності вихідного шару. 


ие (о що 
- (МТ, 2, Кер ЧО зна ог) 


, зані що «(ої і Шо и о опо. по) 


та (п, Х Пп.-1) - матрицю синаптичних ваг 
Із 

із із-1 
переписати критерій навчання у 
компактній формі 


вихідного шару И/? з и ) , можна 


більш 


во я рми (аркою) 


А з) 
ЕОТИ 


Аналогічним чином можна також 


записати нелінійне відображення, що 
реалізується кожним шаром-стеком 
мережі: 


оЇРІ(Ю) зе МУРи!РІ (оі2-3(ю)) ур РУ ННЯ 


де У/? и) - (пр Х Впро1)- 


матриця синаптичних ваг р-го шару, що 
підлягає визначенню у процесі навчання. 
Для налаштування вихідного шару 
може бути використаний матричний 
алгоритм навчання, що має як слідкуючі, 
так і згладжуючі властивості, у вигляді | 14). 


(4) 
Мк - 1) піде! (сію) з 
змиє оч (вію) | е(ибіт (оі-їсю) з 
миє чні) з 
«(ую ми Туші (од) є 
ж ція (оі-Ч(ю) 


пСЮ з ат'іє - 1) рі (опор), 


ИЮ з 


155 2710 - 1673. Агбіїсіа! Палгеїйоепсе. 2021. Мо 1 


БОР 


щи ої 


шої) 


іл 


што 


"Д 


шої 


У 


шо 7) рий 

ер сей 
-1 
ПРО 


Рис 2. Узагальнений новий нечіткий нейрон р-го шару багатошарової стекової нової нечіткої нейронної 
мережі БСНННМ 
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де0 «а «1 - фактор забування, 

п(к) - параметр кроку навчання, що при 
а-б набуває матричну форму 
оптимального за швидкодією алгоритму 
навчання Качмажа-Уїдроу-Хоффа 
(Касгтаг?- У 1дгом-Ноїї) 


УЮ з МИ ЗК - 1) 4 
е(куиіїТ(оіз-(ю)) 
шізіт (оїз-11(ю)) ші5(оіз-Ию)) 


1) зн не(дніі (оп), 


- У ТОК - (5) 


де ()ї символ  псевдообернення за 
Муром-Пенроузом. Можна довести, що 
алгоритм (5) є найшвидкішим в класі 
градієнтних алгоритмів навчання. 
Нескладно також помітити, що приа - 1 
(4) перетворюється У процедуру 
стохастичної апроксимації. 

Вводячи до розгляду і. -й рядок 
матриці И/ Із, 


урі9 


І5) 15) 
и У дес 


Ту Ди І8 
Из СИ, бБЛЯУ іЛдРоу 


ізі1? 


розмірності (1 Х Пп. 1), на основі (35), 
нескладно ввести процедуру налаштування 
синаптичних ваг і; - )-го виходу системи 


Юм о ду 


и ітої» пТад)чміоб-чтко) Ше (о р (ю) - 


мРЇ(ю лу 


(ззудочми Р Пе-лниів(віз"їад) зт ( Із-1) а 
2 и 0 (юЮ 
зціз(оіз-31(ю) | 


умІЗ(ю - 1) ке ОН (об). 


І, нарешті, можна записати алгоритм 


навчання окремі і.ії, -ї ВаГИ 
15) 
із зол 
зу (к -- 1) 


В 


панна 
ОО із-1 Чо)» 


Єї; (Юшщі 1 


П8-1 
рога 
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або у більш загальній формі 


77 о (Юа - 7 й «к -їе 


атак) ж 


ь у, 0 - 5 Уа 1 
ісоазіЇк 


(6) 
п 
-рні (рі, ))- 
щі (ою), 
швидкість збіжності якої визначається 
вибором параметру кроку п(К). 
Налаштування | синаптичних ваг 


прихованих шарів від (5-1)-го до першого 
відбувається за допомогою процедури 
зворотного поширення похибки, для чого 
може бути використаний алгоритм типу (6) 
у вигляді (для передостаннього (5-1)-го 
шару): 


(Кз 
1 


(к- 


т б 2 т ря 2 


-п(к) ж Ре со 
аа 


(7) 
з у (ко 


іс- оз 2 1) - п(ю б 
дою 
дм87 3 


із--1 8-2 


дою 
15-1Ї 
д орви (ю 


д(ег (К))? 
дою 


З урахуванням того, що 


мі (оіу 0) 


Ї5-11 
доїг (ю 


сн 
ор "аю - У. ї А 1 


9 


де 


що й -1(р) 


о З 11 7ю 


- РИ и б 
С Й сі ж якщо 0; 


Із! Із! 
є Геро 1! Сі 1 


Із-1 Із Із 


1 
б, БРАМИ еВ кров Р : ЯКЩО 0, 
0 інакше, 


) 


є Їсрі уЇзо1! Са оЇв-1 


) 
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алгоритм (7) остаточно можна записати у 
вигляді 


15-11 
із-л з-за 


у (Ю ем/-1 


із-л з-за 


(к-луз 


чтО У е(Ю 
2, (5) 


п 15) 15-11 
чо Нио- (об (ю) - з 
15-11 5-1 5-1 15-11 15-21 
і М; іо пет 0; (ю) . 
УЗ 5-1Йіз-2 доб Ч(ю еД 5-2 ) 
Процедура налаштування прихованих 
шарів може бути записана аналогічним 
чином. При цьому 


Тра1 Гр-н1ї 
дЕСЮ із дЕ | дод 
--- ж 

Грі Грч1 Грі 
дог, рн до дої, 

Прал Грн) 

5 - В ар ПР 
їр їрал1 до?! 5 
ірчіт1 їр 


(тут з - 6-похибка і,-го шару) 


Гре1 п Грча1 | Гр 
Оя - УЖ Шір ( їр ) 
рр ірелі рр" 
дог по" дор, 
д рі 
Фір рі (дір) 
ду?! Нцір-а ЧОїір- / 
іріїр-л1 


а кінцевий результат набуває форми 


р Ом (1) 


іріїр-1 
дЕ(Ю (рі 
109 ді іріроі Є 1) 
ірйро-1 
тра Грч1) 9 
зони З 
п їрчі до?! 
ірчізі їр 
Грі Ір-11 
і Щі З (сіро; (0) 


Завдяки тому, що похідні функцій 
належності з сталими, навчання 
розглядуваної системи є досить простим з 
обчислювальної точки зору, а універсальні 
апроксимуючі властивості шарів-стеків, що 
є у загальному випадку нейро-нечіткими 
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системами Такагі-Сугено-Канга, 
забезпечують високу якість опрацювання 
інформації. 

4. Експериментальні дослідження 

У | цьому експерименті | було 
проведено порівняння результатів 
навчання на якість апроксимації 
багатошарового перцептрона З 
сигмоїдними функціями активації та 
запропонованої глибокої нової нечіткої 


мережі. Задля тесту використовувався 
датасет «Вгеаз5і Сапсег М/ізсоп5іп Даїа Зеї 
(ВС Аага5еб)». 

Завданням експерименту було 


з'ясувати, чи може запропонована модель 
показувати у порівнянні з популярними 
моделями результати 1 чи можна її 
використовувати як альтернативну. 


Таблиця 1. Порівняння результатів навчання БШП 


та БСНННМ 

Тип мережі БШП БСЕНННМ 
Архітектура | 3Х100 | 6Х100 | 3Х10 | 6Х10 
Точність 
на 7-ій епосі 92.1 93.85 | 93.86 | 91.23 
(тест) 

Функція 

втрат | 0163 | 0142 | 041 | 0.412 
на 7-1й епосі 

(тест) 

Функція 

втрат | 0179 | 0.123 | 0,429 | 0.397 
на 7-й епосі 
(тренування) 

Цікавим | є те, що у даному 


експерименті на 7-ій епосі БСНННМ (їз 
шести шарів продемонструвала нижчу 
точність, ніж варіант з трьома шарами. 
Разом з тим, результати функції втрат 
показують приріст в оптимальності. Такі 
результати демонструють елемент 
стохастичності при навчанні мережі. 


Висновки 

У статті запропоновано глибоку 
стекову нову нечітку нейронну мережу, 
шари якої утворені узагальненими новими 
нечіткими нейронами, при цьому кількість 
функцій належності у кожному шарі може 
змінюватись у процесі навчання. Така 
мережа забезпечує високі апроксимаційні 
властивості, оскільки кожен стек є за своєю 
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суттю нейр-онечіткою системою Такагі- 
Сугено-Канга, при цьому вихідний сигнал 
мережі та стеків лінійно залежить від 
налаштованих синаптичних ваг, що 
забезпечує високу швидкість навчання. 
Крім того, запропонована система є досить 
простою і швидкою З погляду 
обчислювальної реалізації. 
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